ZNAČKOVACÍ JAZYK

Základní
Rozšiřující

Jazyk v korpusové lingvistice formálně definující způsoby, jimiž lze do textů zapisovat ↗metadata. Metadata jsou typicky vkládána přímo do textu, jsou však od něj oddělena speciálními znaky. Zároveň je třeba upozornit na širší použití z.j. v mnoha dalších oblastech mimo korpusovou lingvistiku a nejenom pro anotaci textů; XML (viz dále) se např. používá také pro popis datových struktur.

Nejpoužívanějším z.j. a standardem v této oblasti je XML (eXtensible Markup Language), nástupce obecnějšího, ale příliš složitého standardu SGML (Standard Generalized Markup Language). XML je  stejně jako SGML  vlastně metajazyk, který umožňuje v rámci obecné XML syntaxe definovat vlastní z.j. (takto byl ze SGML odvozen z.j. webových stránek HTML). To se děje pomocí tzv. schémat: DTD (Document Type Definition) n. nověji XSD (XML Schema Definition), které nabízí širší možnosti než DTD.

Schéma formálně definuje strukturu dokumentu (ta musí být vždy hierarchická), použité elementy a vztahy mezi nimi. Jednotlivé XML dokumenty odpovídající různým schématům se tedy mohou výrazně lišit, jednotícím prvkem je použití XML tagů uzavřených mezi znaky < a >. Proto je v jednotlivých oblastech použití XML žádoucí standardizace, tj. používání kompatibilních XML schémat. Pro elektronické texty se často používají formáty odpovídající TEI Guidelines, standardu zveřejňovaného organizací Text Encoding Initiative, běžné jsou ale i proprietární formáty jednotlivých projektů.

Příklad níže ukazuje počáteční část jednoho ze souborů korpusu ↗InterCorp odpovídajícího č. verzi knihy N. J. Mandelštamové Dvě knihy vzpomínek ve formátu XML. Na druhém řádku souboru najdeme odkaz na DTD s definicí struktury celého dokumentu. Tato definice je však pouze formální na rozdíl od následujícího výkladu, který stručně popisuje také význam a motivaci.

Jeden dokument (označený XML elementem doc) odpovídá celému textu (knize) a je dalšími XML elementy hierarchicky strukturován na části dokumentů (div; v publicistice jim odpovídají články, mohou tak být oddělené i jednotlivé kapitoly apod.), odstavce (p) a věty (s). Každý z těchto elementů začíná otevíracím tagem (např. pro věty <s >) a je uzavřen tagem uzavíracím (</s>), součástí otevíracích tagů jsou navíc atributy a jejich hodnoty v uvozovkách. Element div obsahuje řadu atributů s podrobnými bibliografickými informacemi o textu, všem dosud zmíněným elementům je společný atribut id, identifikátor jednoznačně určující daný element v korpusu.

Dalším elementem je w označující každou jednotlivou pozici vzniklou ↗tokenizací, jeho atributy jsou lemma a morfologická značka jako výsledek (automatické) ↗lemmatizace a ↗tagování. Tyto pozice jsou základní jednotky pro vyhledávání v korpusu odpovídající tokenům: samostatnou pozici v takto označeném textu dokumentu tvoří každý jednotlivý výskyt slovního tvaru, čísla nebo interpunkčního znaménka, které bylo při tokenizaci osamostatněno. Každý w‑element je svým umístěním zařazen do konkrétní věty, odstavce a dokumentu. Elementem i je ohraničena část textu, která byla zapsána kurzívou, a element D označuje místo, kde jednotlivé w‑elementy v původním textu nebyly odděleny mezerou, což umožňuje jeho zpětnou rekonstrukci. Za povšimnutí stojí, že element D je při svém otevření vždy vzápětí uzavřen, což je signalizováno tagem <D/>.

Příklad:

<?xml version='1.0' encoding='utf-8'?>

<!DOCTYPE doc SYSTEM "http://korpus.cz/intercorp/files/intercorp.dtd">

<doc id="Mandelstamova-DveKnihy" language="cs" version="00" wordcount="279826">

<div author="Mandělštamová, Naděžda Jakovlevna" title="Dvě knihy vzpomínek" publisher="Atlantis" pubplace="Brno" pubyear="1996" pubmonth="" origyear="" isbn="80-7108-128-0" txtype="próza" comment="" original="NE" srclang="ru" translator="Dušková, Ludmila" transsex="F" authsex="F" transcomment="" collectionauthor="" collectiontitle="" volume="" pages="" id="cs:Mandelstamova-DveKnihy:0" wordcount="279826">

<p id="cs:Mandelstamova-DveKnihy:0:1">

<s id="cs:Mandelstamova-DveKnihy:0:1:1">

<w lemma="Naděžda" tag="NNFS1-----A----">Naděžda</w>

<w lemma="Mandelštamová" tag="NNFS1-----A----">Mandelštamová</w>

</s>

</p>

<p id="cs:Mandelstamova-DveKnihy:0:2">

<s id="cs:Mandelstamova-DveKnihy:0:2:1">

<w lemma="dva" tag="ClHP1----------">DVĚ</w>

<w lemma="kniha" tag="NNFP1-----A----">KNIHY</w>

<w lemma="vzpomínka" tag="NNFP2-----A----">VZPOMÍNEK</w>

</s>

</p>

<p id="cs:Mandelstamova-DveKnihy:0:3">

<s id="cs:Mandelstamova-DveKnihy:0:3:1">

<i>

<w lemma="k" tag="RR--3----------">K</w>

<w lemma="okenní" tag="AAFS3----1A----">okenní</w>

<w lemma="tabulka" tag="NNFS3-----A----">tabulce</w>

<w lemma="přilnout" tag="VpQW---XR-AA---">přilnula</w>

<w lemma="ženský" tag="AAFS1----1A----">ženská</w>

<w lemma="tvář" tag="NNFS1-----A----">tvář</w>

<w lemma="a" tag="J^-------------">a</w>

<w lemma="po" tag="RR--6----------">po</w>

<w lemma="sklo" tag="NNNS6-----A----">skle</w>

<w lemma="začít" tag="VpTP---XR-AA---">začaly</w>

<w lemma="pomalu" tag="Db-------------">pomalu</w>

<w lemma="stékat" tag="Vf--------A----">stékat</w>

<w lemma="slza" tag="NNFP4-----A----">slzy</w>

<D/>

<w lemma="," tag="Z:-------------">,</w>

<w lemma="jako" tag="Db-------------">jako</w>

<w lemma="kdyby" tag="J,-------------">kdyby</w>

<w lemma="být" tag="VB-S---3P-AA---">je</w>

<w lemma="žena" tag="NNFS1-----A----">žena</w>

<w lemma="mít" tag="VpQW---XR-AA---">měla</w>

<w lemma="pořád" tag="Db-------------">pořád</w>

<w lemma="na" tag="RR--6----------">na</w>

<w lemma="krajíček" tag="NNIS6-----A----">krajíčku</w>

<D/>

<w lemma="." tag="Z:-------------">.</w>

</i>

</s>

</p>

.

.

.

</div>

</doc>

Literatura
  • Burnard, L. Metadata for Corpus Work. In Wynne, M. (ed.), Developing Linguistic Corpora – a Guide to Good Practice, 2005 (http://www.ahds.ac.uk/creating/).
  • Harold, E. R. & W. S. Means. XML in a Nutshell, 2004.
  • TEI Consortium. TEI P5: Guidelines for Electronic Text Encoding and Interchange, 2007 (http://tei-c.org/Guidelines/).
Citace
Michal Křen (2017): ZNAČKOVACÍ JAZYK. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/ZNAČKOVACÍ JAZYK (poslední přístup: 23. 11. 2024)

Další pojmy:

korpusová lingvistika

CzechEncy – Nový encyklopedický slovník češtiny

Všechna práva vyhrazena © Masarykova univerzita, Brno 2012–2020

Provozuje Centrum zpracování přirozeného jazyka